其他
大话系列|决策树—相亲?怎么说?
↑关注+星标,听说他有点东西
情景一:留学归来韩梅梅
按照二八法则,最终选出10个男孩子,应该就是这50个人中佼佼者了,韩爸妈计划完心里美滋滋
情景二:媒婆许姨心憔悴
许媒婆:既然是给孩子找对象,那肯定不能依你们的标准来啊 许媒婆:而且你的亲戚朋友介绍的男孩子,也都在你们那个圈子里,50个人和5个人没啥区别啊
韩梅梅:(羞涩一笑)害,其实我的标准挺简单的,有上进心进行。工作可以不稳定,但是可以一起奋斗嘛,可以没房没车,这个以后总会有的嘛,最好能热爱生活一些,不然老是工作多无趣啊(说到这,韩梅梅不禁想到了一个人,这次他应该有机会出现在名单里面了吧,嘿嘿)
许媒婆:看,树图我都画好了,我们按照这个去筛选,名单上的保准是梅梅喜欢的 韩妈妈:什...什么图? 许媒婆:高科技图,我干儿子教我的,保准没错
情景三:决策树来斗芳菲
许媒婆:你看我这个傻脑筋,费这功夫干嘛。
韩妈妈:嚯,你这是什么软件?这么厉害,快告诉我怎么弄的 许媒婆:我干儿子教我的,这是通过决策树算法算出来的,神奇着呢,来我给你讲讲
我先给你介绍一下决策树:
韩妈妈:好了好了,可以开始了吗,我都等不及了! 许媒婆:
特征选择
问题一:既然是一个树,那树的根节点应该怎么确定?
问题二:怎么计算每个特征对树的影响?
韩妈妈:你还是直接说答案吧,我这笨脑筋
韩妈妈:这不就是上面说的几个概念嘛,我可得好好听听
首先来看ID3 算法
Gain(D,a)表示a特征的划分可以带来的纯度提升,其中a作为D节点的属性选择,Di表示D节点子节点
Ent(D)表示D节点的信息熵,p(i|t)表示在t的样本集中i出现的概率
当前节点(父节点)的信息熵
当前节点的所有子节点的信息熵
在当前节点确定的条件下选中相应子节点的概率
韩妈妈:好啊,刚好我听的有点迷糊
Q1:如何确定根节点
Q2:如何选择子节点?例如选择了天气之后,如何选择下一个节点?
许媒婆:你觉得上面的ID3算法适用于所有情况吗? 韩妈妈:我觉得应该、可能...都适用吧?
所以啊:ID3会对取值数据较多的属性有所偏好
C4.5算法
许媒婆:这个时候的C4.5一定是正确的吗? 韩妈妈:emmm…
韩妈妈:有解决方法吗?
有,从候选划分属性中找出信息增益高于平均水平的,然后在选择信息增益率最高的
韩妈妈:嗯啊哦好,还是你这个决策树靠谱(就是有点难)。刚想起来我还有点事,先走了啊,改天请你吃大餐!!
写在后面的话
建议大家私下抽时间看看数学推导,看看延伸内容,很有必要
好巧啊,你也读到这了!
点个
在看
让小一看到你